智能论文笔记

Rail break and derailment prediction using Probabilistic Graphical Modelling

Rebecca M. C. Taylor , Johan A. du Preez

分类：机器学习 | 人工智能

2022-08-25

铁路休息是国际脱轨的最常见原因之一。这对南非铁矿石线没有什么不同。当大型火车经过裂缝，大缺陷或有缺陷的焊缝时，许多铁路断裂发生。在这种情况下，火车及时放慢以防止驱逐出境的时间通常为时已晚。知道发生轨道障碍的风险与火车经过一部分铁轨有关，可以更好地实施维护计划和缓解措施。在本文中，讨论了矿石线的具体挑战，并审查了当前可用的数据来创建铁路断路风险预测模型。然后提出了矿石线基本的轨道断裂风险预测模型的开发。最后，通过讨论各种铁路断裂风险的各种情况来证明从模型中获得的见解。在将来的工作中，我们计划扩展此基本模型，以允许从实时监控系统（例如超声波破碎的铁路检测系统）输入。

translated by 谷歌翻译

SimLDA: A tool for topic model evaluation

Rebecca M. C. Taylor , Johan A. du Preez

分类：机器学习 | 自然语言处理 | (统计)机器学习

2022-08-19

应用于潜在的Dirichlet分配（LDA）的变异贝叶斯（VB）已成为方面建模最受欢迎的算法。尽管从大型语料库中提取文本主题方面取得了足够的成功，但VB在识别有限数据的情况下识别方面的成功较少。我们提出了通过应用于潜在的Dirichlet分配（LDA）的新型变分信息，并将其与金标准VB进行比较并崩溃的Gibbs采样。在边缘化导致非混合消息的情况下，我们使用采样的想法来得出近似更新方程。如果存在共轭，则使用Loopy信念更新（LBU）（也称为Lauritzen-Spiegelhalter）。我们的算法Albu（近似LBU）与变异消息传递（VMP）具有很强的相似性（这是VB的消息传递变体）。为了比较在有限数据的存在下算法的性能，我们使用由推文和新闻组组成的数据集。使用相干度量，我们表明ALBU比VB更准确地学习潜在分布，尤其是对于较小的数据集。

translated by 谷歌翻译

A Temporal Extension of Latent Dirichlet Allocation for Unsupervised Acoustic Unit Discovery

Werner van der Merwe , Herman Kamper , Johan du Preez

分类：自然语言处理 | 机器学习 | (统计)机器学习

2022-06-23

潜在的DIRICHLET分配（LDA）广泛用于一组文档的无监督主题建模。模型中没有使用时间信息。但是，连续令牌的相应主题之间通常存在关系。在本文中，我们向LDA提供了一个扩展，该扩展名使用马尔可夫链来建模时间信息。我们将这种新模型从语音发现进行声学单元发现。作为输入令牌，该模型从具有512个代码的矢量定量（VQ）神经网络中对语音进行了离散的编码。然后，目标是将这512个VQ代码映射到50个类似电话的单元（主题），以使其更加类似于真实的电话。与基本LDA相反，该基础LDA仅考虑VQ代码在发声中的共同发生（文档），Markov链LDA还捕获了连续代码如何相互跟随。与基本LDA相比，这种扩展会导致集群质量和电话分割结果的提高。与最近学习50个单元的媒介量化神经网络方法相比，扩展的LDA模型在电话分割方面的性能较好，但在相互信息中的性能较差。

translated by 谷歌翻译

Variational message passing (VMP) applied to LDA

Rebecca M. C. Taylor , Johan A. du Preez

分类：机器学习 | (统计)机器学习

2021-11-02

应用于潜在Dirichlet分配（LDA）的变形贝叶斯（VB）是LDA的原始推理机制。由于LDA在2013年的成立之后，LDA的许多VB变体以及VB一般都已开发，但标准VB仍然广泛应用于LDA。变形消息传递（VMP）是传递VB等同物的消息，并且是用于为大量共轭指数图形模型构建变分推断解决方案的有用工具（还有其他模型可用的非共轭变体）。在本文中，我们介绍了LDA的VMP方程，还提供了对方程的简要讨论。我们希望在导出其他类似图形模型的变分推理解决方案时，这将帮助其他人。

translated by 谷歌翻译

ALBU: An approximate Loopy Belief message passing algorithm for LDA to improve performance on small data sets

Rebecca M. C. Taylor , Johan A. du Preez

分类：机器学习 | 自然语言处理 | (统计)机器学习

2021-10-01

应用于潜在的Dirichlet分配（LDA）的变异贝叶斯（VB）已成为方面建模最受欢迎的算法。尽管从大型语料库中提取文本主题方面取得了足够的成功，但VB在识别有限数据的情况下识别方面的成功较少。我们提出了通过应用于潜在的Dirichlet分配（LDA）的新型变分信息，并将其与金标准VB进行比较并崩溃的Gibbs采样。在边缘化导致非混合消息的情况下，我们使用采样的想法来得出近似更新方程。如果存在共轭，则使用Loopy信念更新（LBU）（也称为Lauritzen-Spiegelhalter）。我们的算法Albu（近似LBU）与变异消息传递（VMP）具有很强的相似性（这是VB的消息传递变体）。为了比较在有限数据的存在下算法的性能，我们使用由推文和新闻组组成的数据集。此外，为了执行更多细性的评估和比较，我们使用模拟通过Kullback-Leibler Divergence（KLD）进行比较，以进行比较。使用文本语料库和KLD的相干度量与我们显示的模拟相比，Albu比VB更准确地学习潜在分布，尤其是对于较小的数据集。

translated by 谷歌翻译

Strengthening Probabilistic Graphical Models: The Purge-and-merge Algorithm

Simon Streicher , Johan du Preez

分类：机器学习

2021-09-30

概率图形模型（PGM）是解决多种概率分布的复杂关系系统的强大工具。但是，虽然树结构的PGM始终导致有效和精确的解决方案，但是图表（或循环）的推断不保证发现最佳解决方案。原则上可以将循环PGM转换为等同的树结构，但由于指数爆炸，这对于有趣的问题通常是不切实际的。要解决此问题，我们开发了净化和合并算法。该算法通过选择性合并因子来迭代朝向树结构朝向树结构阐述。合并过程旨在避免通过稀疏结构的指数爆炸，因为算法进行了冗余的冗余。我们设置任务以测试约束满意拼图（如Sudoku，Fill-A-Pix和Kakuro）的算法，并且在文献中报告了其他基于PGM的方法。虽然我们设置的任务专注于CSP的二进制逻辑，但我们认为可以将吹扫和合并算法扩展到一般PGM推理。

translated by 谷歌翻译

Open set learning with augmented category by exploiting unlabelled data (open-LACU)

Emile R. Engelbrecht , Johan A. du Preez

分类： (统计)机器学习 | 计算机视觉 | 机器学习

2020-02-04

考虑到未标记数据的性质，部分标记的培训数据集包含属于新型类别的样本是很常见的。尽管这些所谓的观察到的新类别存在于培训数据中，但它们不属于任何培训标签。相反，开放集将新类别定义为在训练过程中未观察到的类别，但在测试过程中存在。这项研究是第一个通过利用未标记的数据或开放式LACU来概括的新学习政策中观察到的新学习政策和未观察到的新型类别的研究。这项研究对新颖性检测进行了高级综述，以区分涉及观察到的新类别的研究领域以及涉及未观察到的新颖类别的研究领域。然后将Open-Lacu作为相关领域的合成，以维持每个学习策略中每个领域的优势。目前，我们正在敲定第一个开放式LACU网络，该网络将与此预印刷结合使用，以供出版。

translated by 谷歌翻译

Degenerate Gaussian factors for probabilistic inference

J. C. Schoeman , C. E. van Daalen , J. A. du Preez

分类：机器学习 | (统计)机器学习

2021-04-30

在本文中，我们提出了一个参数化因素，该因子可以对随机变量之间存在线性依赖性的高斯网络进行推理。我们的因素表示有效地是对传统高斯参数化的概括，在这种情况下，协方差矩阵的正定限制已被放松。为此，我们得出了各种统计操作和结果（例如，随机变量的边缘化，乘法和仿射转换）将高斯因子的能力扩展到这些退化设置。通过使用此原则性因素定义，可以以几乎没有额外的计算成本来准确，自动适应退化。作为例证，我们将方法应用于一个代表性的示例，该示例涉及合作移动机器人的递归状态估计。

translated by 谷歌翻译

Sparse neural networks with skip-connections for nonlinear system identification

Erlend Torje Berg Lundby , Haakon Robinsson , Adil Rasheed , Ivar Johan Halvorsen , Jan Tommy Gravdahl

分类：机器学习

2023-01-02

Data-driven models such as neural networks are being applied more and more to safety-critical applications, such as the modeling and control of cyber-physical systems. Despite the flexibility of the approach, there are still concerns about the safety of these models in this context, as well as the need for large amounts of potentially expensive data. In particular, when long-term predictions are needed or frequent measurements are not available, the open-loop stability of the model becomes important. However, it is difficult to make such guarantees for complex black-box models such as neural networks, and prior work has shown that model stability is indeed an issue. In this work, we consider an aluminum extraction process where measurements of the internal state of the reactor are time-consuming and expensive. We model the process using neural networks and investigate the role of including skip connections in the network architecture as well as using l1 regularization to induce sparse connection weights. We demonstrate that these measures can greatly improve both the accuracy and the stability of the models for datasets of varying sizes.

translated by 谷歌翻译

All's well that FID's well? Result quality and metric scores in GAN models for lip-sychronization tasks

Carina Geldhauser , Johan Liljegren , Pontus Nordqvist

分类：计算机视觉 | (统计)机器学习

2022-12-28

We test the performance of GAN models for lip-synchronization. For this, we reimplement LipGAN in Pytorch, train it on the dataset GRID and compare it to our own variation, L1WGAN-GP, adapted to the LipGAN architecture and also trained on GRID.

translated by 谷歌翻译